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摘要 : 为 应 对 我 国 的 宽 视 场地 基 广 角 相 机 阵 在 大 数据 管理 和 实时 处 理 上 带 来 的 挑战 ， 提 
出 一 种 基于 列 存储 数据 库 MonetDB 的 时 序数 据 处 理 与 管理 系统 设计 方案 。 本 方案 充分 利用 
MonetDB 兼 具 数据 处 理 和 管理 于 一 体 的 数据 库 平 台 特 点 ， 通 过 将 交叉 认证 等 核心 数据 处 理 算 
法 内 谱 于 数据 库 中 ， 从 而 实现 将 “计算 带 到 数据 中 ”的 设计 理念 。 同 时 ， 对 本 方案 开展 了 多 项 
关键 技术 的 研究 与 测试 : TPC-H 基准 性 能 测试 ， 大 数据 加 载 能 力 测试 及 优化 研究 ; 基于 
MonetDB 的 Zone 算法 实现 与 测试 ; 可 定制 函数 开发 功能 的 测试 。 初 步 的 预 研 结果 表明 ， 列 存 
储 切 实 可 行 ， 同 时 对 本 设计 方案 作 详 细 的 介绍 。 提 出 的 基于 列 存储 MonetDB 数据 库 设 计 的 海 
量 星 表 数 据 处 理应 用 方案 ， 是 高 效 的 数据 处 理 与 管理 为 一 体 的 天 文 数据 库 解 决 方案 。 
关键 词 : 天 文 数据 库 ; 架构 设计 ; MonetDB; 实时 分 析 ; 交叉 认证 
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现代 天 文 观测 和 数据 处 理 技术 的 发 展 ， 使 得 时 域 天 文 观测 朝 着 更 大 的 视 场 和 更 高 的 时 间 采 样 率 方 
向 发 展 成 为 可 能 ， 也 给 现代 时 域 天 文 观 测 注入 了 新 的 活力 ， 如 超新星 尤其 是 爆发 早期 超新星 的 发 现 ， 
伽 玛 暴光 学 余辉 的 快速 响应 观测 ， 微 引力 透镜 事件 的 发 现 与 后 随 观测 等 都 得 益 于 现代 时 域 天 文 观 测 和 
数据 处 理 技术 的 发 展 。 

我 国 兴 建 中 的 地 面 广角 相机 阵 ( Ground Wide Angle Camera, GWAC), HH 36 台 口 径 为 18 cm 的 广 
角 望 远 镜 组 成 ， 每 台 望 远 镜 配 备 4k x4k 的 CCD 探测 器 。 整 个 相机 阵 的 天 区 覆盖 5000 平方 度 ， 时 间 
采样 率 为 15 s。 每 个 观测 夜 对 固定 天 区 目标 的 持 继 观 测 长 达 4~5 h。 从 观测 视 场 的 大 小 和 观测 时 间 的 
采样 频 度 上 ， 地 面 广角 相机 阵 在 时 域 天 文 观测 中 具有 特殊 的 优势 。 巨 大 的 数据 量 和 高 时 间 采 样 率 ， 对 
数据 的 管理 和 处 理 提 出 极 大 的 挑战 。 

地 面 广角 相机 阵 的 星 表 数 据 指标 是 : 星 表 数 据 每 幅 图 像 大 约 有 1.5 x 10° 条 记录 ， 整 个 相机 阵 在 
15 s 内 共产 生 5.4 x 10° 条 记录 ， 每 晚 约 有 2 400 x 36= 86 400 幅 图 ， 大约 2 TB。 对 数据 库 管理 系统 的 
BER, (1) 快速 的 大 数据 入 库 能 力 ， 所 有 相机 阵 15 s 内 产生 的 观测 星 表 入 库 时 间 控 制 在 15s 以 内 ， 每 
个 观测 夜 的 2TB 星 表 最 晚 完 成 人 库 时 间 保 证 在 下 一 个 观测 夜 开 始 前 ; (2) 在 数据 高 速 采集 下 能 够 完成 
实时 分 析 ， 面 对 持续 不 断 的 高 密度 海量 星 表 的 快速 关联 计算 能 力 ， 即 每 个 CCD 每 15 s 产生 的 星 表 数 
据 与 参考 星 表 相关 联 形成 光 变 曲线 。 

对 于 地 基 广 角 相 机 阵 ， 最 直接 的 数据 库 管 理 和 处 理 系统 的 设计 方案 是 数据 库 ( 仅 为 数据 存储 ) + 外 
围 的 程序 (完成 快速 的 运算 )。 文 [1] 通 过 对 关键 技术 交叉 认证 的 研究 开发 了 基于 空间 等 经 纬 网 格 的 天 
区 分 区 算法 ， 使 得 交叉 认证 计算 实现 了 极 大 的 提速 ; 利用 图 形 处 理 器 的 平行 计算 优势 ,， 文 [2] 实 现 了 
图 形 处 理 器 加 速 图 像 相 减 处 理 的 方法 ; 文 [3] 开 发 了 利用 图 形 处 理 器 加 速 天 文中 常用 的 点 源 提取 程序 
SEXtractor; 文 [4] 开 发 了 基于 图 形 处 理 器 的 加 速 星 表 的 交叉 认证 算法 ， 该 方案 的 好 处 是 思路 直接 ， 许 
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多 技术 是 成 熟 的 ， 缺 点 是 数据 库 不 断 与 处 围 程序 交换 ， 带 来 不 必要 的 输入 输出 时 间 损 耗 ， 多 方程 序 组 
合 缺 少 整体 的 优化 。 

著名 数据 库 专 家 Jim Gray 成 功 开 发 了 SDSS 巡天 数据 库 管 理 系统 Skyserver， 他 提出 了 Zone 算 
法 0-@， 即 利用 数据 库 的 SQL 直接 实现 多 维 空间 索引 取代 经 典 的 分 层 三 角 网 格 算法 ( Hierarchical 
Triangular Mesh, HTM) ， 从 而 减少 数据 的 交互 ， 速 度 得 到 提升 。 这 就 是 大 规模 科学 计算 和 数据 库 架 构 
设计 的 原则 : 将 计算 带 到 数据 中 来 ， 而 不 是 把 数据 放 到 计算 中 去 的 设计 理念 5 。 受 这 一 思想 的 启发 ， 
提出 将 地 基 广 角 相 机 阵 的 数据 处 理 和 数据 管理 合成 到 一 个 数据 库 平 台 的 设计 思路 。 

合适 的 数据 库 平台 是 实现 这 一 设计 思想 的 关键 ， 因 为 传统 的 数据 库 平台 不 具备 大 数据 快速 处 理 的 
能 力 。LSST 项 目 针 对 天 文大 数据 的 需求 提出 开发 全 新 的 数据 库 SciDB， 因 为 处 于 开发 活跃 期 ，SciDB 
的 稳定 性 和 实用 性 还 有 待 检验 。MonetDB 是 一 款 开源 的 内 存 列 存储 数据 库 平 台 ， 有 具有 内 部 存储 模型 
按 列 分 块 、 占 用 存储 空间 小 、 运 行 时 查询 优化 等 优势 。MonetDB 底层 物理 存储 模型 与 传统 数据 库 有 非 
常 显著 的 不 同 ， 关 系 表 经 过 垂直 切 分 ， 每 一 列 存储 在 一 个 单独 的 (ID,， value) 键 值 对 表 中 ， 称 作 二 元 
KA 表 ( Binary Association Table，BAT) 。 二 元 关系 表 左 边 一 列 ， 叫 做 头 部 ， 是 对 象 ID(OID ) ; 右 侧 一 
列 叫 尾部 ， 包 含 属 性 的 值 。 头 部 和 尾部 分 别 用 一 个 数组 实现 。 使 用 列 存 储 数据 库 的 方式 使 得 查询 语句 
的 执行 只 需要 访问 用 到 的 列 。 当 同一 类 型 的 属性 存在 于 连续 内 存 ， 可 以 获得 较 高 的 压缩 比 和 缓存 命中 
率 。 同 时 ，MonetDB 的 内 核 是 建立 在 类 “array” 结 构 上 的 可 编程 的 关系 代数 机 ， 这 种 友好 的 结构 能 最 
大 限度 地 利用 硬件 的 性 能 实时 响应 用 户 的 需求 。 而 且 ，MonetDB 执行 引擎 中 缓存 敏感 的 数据 结构 算法 
可 以 在 运行 时 优化 多 级 内 存 系统 。 

可 以 看 出 ， 表 的 数据 量 武大 ， 尤 其 是 当 查 询 语句 比重 越 大 ， 就 越 适合 使 用 列 存储 数据 库 。 因 为 如 
果 数 据 量 很 大 ， 而 查询 访问 的 列 比 很 小 ， 即 所 有 查询 语句 访问 的 列 数 和 总 列 数 的 比例 越 小 ， 使 用 列 查 
Ë 询 越 能 降低 SQL 语句 查询 时 间 ， 越 适合 使 用 列 存储 。 
~N 综 上 所 述 ，MonetDB 适合 要 求 快速 取 回 结果 的 海量 数据 分 析 型 在 线 分 析 处 理 (Online Analytical 
p Processing, OLAP) 的 应 用 和 存储 ， 这 与 地 面 广角 相机 阵 需要 提供 的 查询 服务 属于 同一 类 型 ， 非 常 适合 
应 用 于 天 文 数据 库 。 

大 型 射电 望远镜 巡天 项 目 低频 阵列 (Low- 
Frequency Array，LOFAR ) 利用 MonetDB 完成 了 
数据 处 理 系 统 TKP pipeline， 其 星 表 数 据 一 年 约 
为 40 TB'*!; SDSS 的 SQL Server 管理 数据 库 曾 被 
< 成 功 移植 到 MonetDB 上 :7 ， 并 通过 了 对 斯 隆 数字 
Q 巡天 项 目 中 的 SDSS BESTDR7 近 4 TB 数据 的 管理 

测试 。 因 此 选取 列 存储 数据 库 MonetDB 作为 系 
统 的 开发 平台 。 

为 研究 和 验证 以 上 设计 思路 的 可 行 性 ， 根 据 
地 基 广 角 相 机 阵 数 据 处 理 流程 (如 图 1) 开展 了 
TPC-H 基准 性 能 测试 以 验证 其 载 和 和 分 析 能 


原始 图 像 


基本 预 处 理 


点 源 提取 


星 表 天 测定 标 


数据 库 


大 数据 加 载 速度 的 测试 与 研究 。 通 过 MonetDB eee ene 
的 自 定义 函数 接口 功能 测试 实际 自 定 义 函 数 的 开 ( 交叉 认证 、 相 对 流量 定 标 ) 

发 功能 ; 核心 算法 交叉 认证 条 带 (Zone) 算 法 在 

MonetDB 上 的 实现 与 测试 。 最 后 ， 详 述 了 基于 图 1 地 基 广角 相机 阵 数 据 处 理 流程 图 
MonetDB 的 海量 星 表 数 据 管 理 和 处 理 的 初步 方案 。 Fig.1 The flow chart of GWAC data processing 
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为 测试 MonetDB 的 实际 表现 ， 进 行 了 TPC-H 基准 测试 并 比较 了 与 传统 数据 库 平台 PostgreSQL 及 
MySQL 的 差异 。TPC-H 是 模拟 决策 支持 类 应 用 的 一 个 测试 集 。 天 文 数 据 库 日 常 提供 的 服务 也 属于 数 


据 分 析 类 应 用 ， 适合 选择 TPC-H 作为 测试 集 。 
TPC-H 测试 包括 22 条 选择 查询 语句 。 测 试 

流程 为 先 用 DBGEN 工具 产生 测试 数据 ， 加 载 程 

a 3 种 数据 库 后 ， 数 据 库 处 于 初始 状 


表 1 测试 环境 具体 情况 表 
Table 1 Parameters of the test 
Software and hardware of 


. Database Version 
testing platform 


态 ， 未 进行 其 他 任何 操作 。 此 时 将 22 条 查询 顺 
Fi ， 分 别 记录 3 种 数据 库 22 条 查询 的 
总 响应 时 间 。 测试 环境 同上 ，MySQL 版 本 为 
5. 6. 16。 测 试 环 境 具 体 情 况 如 表 1。 

图 2 为 MonetDB 和 PostgreSQL, MySQL 的 
TPC-H SF=1(1 GB) 数 据 量 基准 性 能 测试 结果 对 
比 ， 具 体 代 码 见 中。 可 以 看 出 22 条 查询 总 时 间 MonetDB 消耗 只 有 PostgreSQL 的 约 1/15, MySQL 的 
1/137， 单 条 查询 提速 至 少 3 倍 。 造 成 查询 响应 时 间 存 在 较 大 差异 的 主要 原因 是 TPC-H 业务 类 型 是 在 
线 数据 分 析 类 型 ， 数 据 量 大 ， 查 询 语句 比重 大 ， 复 杂 的 查询 多 ， 符 合适 合 列 存储 数据 库 的 典型 指标 。 
表 的 数据 量 越 大 ， 就 越 适 合 使 用 列 存储 数据 库 ， 尤 其 是 当 查 询 语句 比重 也 很 大 时 ， 则 使 用 列 查询 能 显 
著 降 低 SQL 语句 查询 的 时 间 。 如 果 查 询 访问 的 列 比 ， 即 所 有 查询 语句 访问 的 列 数 和 总 列 数 的 比例 越 
小 ， 越 适合 列 存储 。 这 解释 了 对 于 大 表 Lineitem 上 的 连接 、 且 查询 访问 列 比 低 的 查询 的 Q18、Q19、 
Q21，MonetDB 响应 速度 领先 数 十 倍 的 原因 。 可 见 MonetDB 列 存储 数据 库 在 分 析 式 查询 时 具有 较 强 优 
势 。MonetDB 在 TPC-H 测试 中 的 表现 相对 于 MySQL 和 PostgreSQL 具有 明显 的 优势 ，MySQL 表现 最 
差 ， 而 PostgresSQL 居中 。 
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图 2 MonetDB 和 PostgreSQL, MySQL TPC-H 1 G 基准 测试 
Fig.2 Benchmark results of MonetDB, PostgreSQL, MySQL TPC-H 1G 
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2 关键 算法 与 功能 分 析 测 试 


根据 地 基 广 角 相 机 阵 数据 处 理 需 求 ， 处 理 速度 要 求 在 15 s 的 采样 时 间 间 隔 内 完成 数据 的 所 有 处 
H, 功能 上 要 求 匹 配 出 瞬 变 源 并 能 生成 光 变 曲线 。 进 行 如 下 关键 算法 和 功能 的 测试 : 大 数据 的 加 载 能 
Fi; 交叉 认证 算法 的 实现 ; 扩展 处 理 功 能 的 开发 实现 。 
2.1 大 数据 加 载 测 试 

大 数据 加 载 测试 主 要 分 为 两 种 情况 。 测 试 (1) : 数据 库 随 着 加 载 数据 量 的 增加 对 加 载 速 度 的 影 
响 ; 测试 (2) : 影响 加 载 速度 因素 的 测试 分 析 。 

测试 (1) 的 方法 为 通过 仿真 1000 个 20 列 x 20 万 行 8 类 似 于 实际 观测 的 星 表 数 据 ， 连 续 加 载 到 被 
测试 的 数据 库 中 ， 分 析 加 载 速度 的 变化 。 测 试 平台 的 软 硬 件 环境 如 图 3。 测 试 的 具体 实现 过 程 : 对 仿 
真 的 星 表 ， 使 用 大 文件 导入 库 命 令 COPY BINARY INTO; 

COPY BINARY INTO tablename FROM( ‘path_to_file_0’, ‘path_to_file_1..,’path_to_file_19') ; 
分 别 对 MonetDB 和 PostgreSQL 进行 加 载 能 力 的 对 比 。 图 3 是 对 MonetDB 进行 数据 加 载 测试 的 结 
图 4 是 PostgresSQL 的 测试 结果 。 对 比 两 图 得 出 如 下 结论 : (1) MonetDB 随 着 数据 库 单 表 数据 的 增加 ， 
对 注入 的 速度 无 明显 影响 ， 平 均 每 个 星 表 文 件数 据 的 载 人 时 间 为 0. 94 s。 而 PostgresSQL 则 在 载 人 500 
个 星 表 文件 后 ， 速 度 明 显 降 低 ， 平 均 载 入 速度 为 6.0 s。MonetDB 没有 出 现 速率 陡 降 现象 ， 这 与 
MonetDB 是 内 存 数据 库 相 关 ， 表 现在 磁盘 存 取 、 内 外 存 的 数据 传递 、 缓 冲 区 管理 、 排 队 等 待 及 锁 的 延 
迟 方面 均 比 磁盘 数据 库 快 很 多 。(2)MonetDB 每 隔 几 十 个 文件 会 有 一 个 突 跳 点 ， 加 载 时 间 突 然 提高 至 
10s 左右 。 主 要 原因 是 由 于 MonetDB 需要 时 间 将 数据 写 到 人 磁盘， 而 导致 的 输入 输出 开销 。 这 是 在 今后 
使 用 中 需要 解决 的 一 个 问题 ,希望 能 通过 提高 数据 写 和 人 硬盘 的 频 度 来 解决 。 

测试 (2) 的 目标 : 对 MonetDB 进行 更 大 量 星 表 数据 的 压力 加 载 测 试 ， 以 测试 在 大 数据 下 的 数据 加 
载 性 能 。 


MonetDB single table loading of 1000 files 


Time in second 


N > 
+ + 
(1a el li bal Lal 


A 


1 101 201 301 401 501 601 701 801 901 
Loading files sequence 
图 3 MonetDB 单 表 数据 加 载 测试 
Fig.3 Load test of MonetDB's single table 


© ”实际 情况 每 幅 图 像 产生 15 万 条 星 表 记录 ， 为 进行 压力 测试 ， 这 里 选取 20 万 条 记录 。 
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PostgreSQL single table loading of 1000 files 


Time in second 


1 51 101 151 201 251 301 351 401 451 501 551 601 651 701 751 801 851 901 951 
Loading files sequence 


图 4 PostgreSQL 单 表 数据 加 载 测 试 
Fig.4 Load test of PostgreSQL's single table 


测试 方法 : 仿真 星 表 86400 个 ， 每 个 星 表 约 175,000 Fr, 包含 22 列 属性 数据 。 每 个 列 文件 大 小 


为 1.4 M， 数 据 量 总 共 2. 47 TB。 按 顺序 不 断 往 数据 库 注 入 星 表 数 据 。 


i 


测试 平台 : CPU: 2 sockets Intel Xeon CPU E5-2690 v2 @ 3. 00 GHz. 40 processor; 内 存 : 8 x 16 GB; 
作 系 统 : Scientific Linux release 6.5, Linux kernel: 2.6.32-358.e16.x86_64, 
测试 结果 如 图 5， 载 和 速度 基本 是 缓慢 的 线性 变化 。 平 均 每 个 星 表 的 载 人 时 间 1.75 s， 总 载 人 时 间 


42h, 86400 个 星 表 相 当 于 36 个 CCD 向 一 个 数据 表 注 入 ， 所 以 实际 使 用 应 比 压力 测试 的 结果 还 要 好 。 


在 测试 过 程 中 还 发 现 一 个 现象 . MonetDB 的 数据 塌 人 速度 与 星 表 文 件 大 小 有 一 个 反 名 的 关系 ，16 MB 


星 表 文 件 的 载 人 整体 速度 要 比 1. 34 MB 星 表 数 据 快 2. 5 倍 ， 具 体 关 系 见 图 6。 主 要 原因 是 较 大 的 文件 
读 取 单元 可 以 更 好 地 利用 磁盘 输入 输出 ， 从 而 提高 了 文件 的 载 人 速度 。 对 于 地 面 广角 相机 阵 ， 每 个 星 
表 数 据 列 文件 约 1~2 MB， 因 此 ， 存 在 进一步 优化 的 空间 ， 在 实际 使 用 中 需要 通过 调整 MonetDB 内 置 
参数 对 比 进行 优化 。 


Cumulative time in second 


Cumulative time of COPY BINARY, Different chunk size via COPY BINARY 
each catalog ~175,000 rows, 22 rows 
200 000 g , l INTO MonetDB 
17506.14 
g 
150 000 S 15000 
L 
点 
100 000 号 10 000 
i 5556.90 5826.55 
号 268.74 5346.334954 14 
50 000 2 5 000} 1 
E 
0 20 000 40 000 60 000 80 000 i 1.34M 16M 32M 64M 129M 257M 515M 1G 2G 
Catalog number Chunk size of loadings 
图 5 MonetDB 86400 个 二 进 制 星 表 ， 图 6 MonetDB 不 同 数 据 块 ，10008 个 二 进 制 星 表 ， 
单 表 数据 加 载 累加 时 间 曲 线 单 表 数据 加 载 速度 测试 
Fig. 5 86400 binary catalogs of MonetDB, loading Fig.6 Different MonetDB data block, 10008 binary 
time curve of single table data catalogs, loading speed test of single table data 


2.2 交叉 认证 算法 的 实现 


交叉 认证 是 地 面 广角 相机 阵 巡 天 中 搜索 瞬 变 源 和 光 变 曲线 生成 的 关键 算法 。 交 叉 认 证 问题 必须 依 


靠 有 效 的 分 区 策略 ， 通 过 将 天 区 按 赤 纬 进行 条 带 分 区 ， 将 天 区 划分 成 一 个 个 水 平 条 带 ， 每 个 源 有 一 个 
属于 自己 的 条 带 属性 ， 交 叉 认 证 前 首先 比较 条 带 属性 可 以 大 大 降低 比较 次 数 。 条 带 可 集成 到 数据 库 内 
部 ， 减 少 了 数据 输入 输出 的 时 间 损 耗 。 
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#2 是 一 个 mini-GWAC® 用 到 的 实际 星 表 案 例 ，MonetDB 在 16 GB 内 存 的 服务 器 上 所 作 的 20” 4 
径 误差 内 交叉 认证 的 测试 结果 ， 条 带 高 度 20"。 测 试 环境 为 : Intel Core i7-2600K CPU Quad-Core @ 
3.40 GHz, 8 M Cache, 4 GB AE, Scientific Linux 6.4, linux kernel 2.6.32, MonetDB Jan2014 版 本 和 
PostgreSQL 9. 3. 0 版 本 。 

使 用 的 SQL 语句 为 

select x0.id as idl, t0.id as id2 from extractedcatalog x0, template tO 

where xO.zone between floor( t0.decl—0. 0056) and floor(t0.decl+0. 0056) —-zone filter 


and x0.decl between t0.decl-0. 0056 and t0.decl+0. 0056 ——dec filter 
and 3600 * DEGREES(2 * ASIN(SQRT( (x0.x-t0.x) * (x0.x-t0.x) +(x0.y-t0.y) * (x0.y-t0.y) 
+(x0.z—-t0.z) * (x0.z-t0.z) )/2) ) <20; accurate computation 


表 2 测试 结果 表明 ， 同 样 使 用 条 带 算 法 ，MonetDB Jan2014 Lt PostgreSQL 加 速 比 达 17 倍 。 同 时 ， 
测试 两 个 具有 17 万 条 记录 的 星 表 进行 交叉 认证 ， 所 需 时 间 大 约 为 4. 3 s。 
2.3 用 户 自 定 义 函 数 功 能 测试 

MonetDB 提供 了 用 户 自 定义 函数 (User Defined Functions, UDF) 对 外 接口 以 利于 扩展 内 核 功 能 ， 用 
户 可 以 灵活 地 根据 实际 需要 添加 自 定义 函数 。MonetDB 装配 语言 的 多 层 架 构 结 构 如 图 7。 用 户 自 定义 
函数 层 首先 被 MAL 解释 需 识 别 (MonetDB Assembly Language, SQL 语句 解析 成 MAL， 提 供给 内 核 执 
行 )， 然 后 由 SQL 编译 器 识别 。 为 了 大 批量 数据 导入 ， 开 发 了 UDF Columncopy， 直 接 将 ASCII 文件 导 
入 底层 列 存储 单元 ( Binary Association Table, BAT) 。 


表 2 MonetDB, PostgreSQL 有 无 zone 
1.5 万 x1.2 万 条 交叉 认证 
Table 2 15k x 12k rows of cross-match MonetDB 


。 。 Optimizers 
Postgres with/without zone 
Catalogue A 15218 rows Matched rows time Back-end(s) MonetDB 5 


Catalogue B 12540 rows /条 /s 


Front-ends SQL 03 SciQL 


MonetDB Feb2013 版 无 zone 12 027 302 Kernel tee ::; 
MonetDB Feb2013 版 +zone 12 027 4.2 

MonetDB Jan2014 版 无 zone 12 027 238 图 7 MonetDB 架构 及 与 用 户 定义 函数 的 关系 
MonetDB Jan2014 版 +zone 12 027 1.8 Fig.7 The architecture of MonetDB and its 
PostgreSQL 9. 3.0 版 +zone 12 027 30.8 relationship with UDF 


自 定义 函数 Columncopy 的 实现 过 程 如 下 (开发 语言 为 C 语言 ): 

(1) 81_svom.mal 文件 用 于 MonetDB 服务 器 启动 时 自动 加 载 这 个 用 户 自 定义 函数 ; 
(2) 81_svom.sql 文件 向 SQL 函数 列表 加 入 columncopy 函数 签名 ， 也 用 于 自动 加 载 ; 
(3) Makefile.ag 向 编译 器 引入 新 模块 依赖 的 库 文 件 信息 ; 

(4) svom.c, svom.h 为 用 户 自 定义 函数 实现 文件 ; 


_append_bat(sql, t, cname, b) 将 结果 BAT b 追加 到 表 t 某 列 后 。 
BATnew( TYPE_void, TYPE_int, nr_rows); 创建 一 个 二 元 关系 表 。 


columncopy (tablename, columnname, SQL PKA, 将 文件 各 ename 里 的 columnrows 
columnrows, filename ) 行 导 入 到 tablename 表 的 columnname 列 中 。 


© Mini-GWAC 是 地 基 广 角 相 机 阵 的 前 导 项 目 , 由 12 台 8 cm 的 大 视 场 相机 组 成 ， 现 已 建成 安放 于 国家 天 文 台 兴 隆 观 测 站 。 
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(5) svom.mal 定义 MAL 水 数 地 址 和 对 应 的 SQL 签名 的 映射 ; 
(6) columncopyUDF 函数 ,将 BAT 结构 追加 到 数据 库 中 该 表 存 储 结 构 的 后 面 完成 导入 ; 
(7) 用 户 自 定义 函数 与 源 代码 一 同 编译 ， 注 册 成 为 数据 库 服 务 器 的 内 置 函 数 ， 调 用 方式 : 


sql>call columncopy (tablename, columnname, 


columnrows, filename) , = 
H a er ccp1 | ccp2 CCDi 
此 次 用 户 自 定义 函数 为 今后 复 用 设计 其 他 用 | 


户 自 定义 函数 ， 扩 展 MonetDB 服务 器 的 能 力 打 = | = 


下 了 良好 的 基础 。 = = 


ny E i > Be = y é 4 三 = 
3 初步 设计 方案 DB sqdrver 1 DB sqrver2 DB sefver i 


考虑 每 个 相机 的 并 列 关系 ， 每 个 相机 对 应 一 
个 数据 库 单 元 ，36 个 数据 库 单元 最 终 由 一 台 控 
制服 务 器 连接 ， 控 制服 务 器 负责 数据 库 单元 的 添 


加 和 连接 。 这 种 设计 的 好 处 是 数据 库 单元 只 需 负 Control Server 
责 自 身 CCD 的 存储 和 计算 ， 在 物理 上 完成 了 数 图 8 分 布 式 数据 库 阵列 架构 
据 表 的 分 制 。 分 布 式 数据 库 架 构 见 图 8。 分 布 式 Fig.8 Distributed architecture of Database array 


的 数据 库 各 数据 表 的 名 称 和 功能 见 表 3。 


表 3 分 布 式 的 数据 库 各 数据 表 的 名 称 和 功能 


Table 3 The name and function of each table in the distributed database 


表单 名 称 功能 
image 每 幅 原始 图 像 在 这 个 表 里 有 一 个 唯一 标识 ， 每 行 代表 一 幅 图 像 。 
i 每 一 幅 原 始 FITS 图 像 ， 经 过 SEXtractor 程序 提取 的 点 源 记 录 到 这 个 表 。 一 个 源 可 能 
argets 
在 观测 中 多 次 出 现 ， 每 次 出 现时 的 观测 指标 全 部 源源 不 断 地 插入 targets 表 中 。 
每 一 行 代表 一 个 唯一 化 的 源 ，uniquecatalog 里 的 每 一 行 可 能 与 targets 里 的 多 行 相关 联 ， 
i i 它 的 位 置 、 星 等 等 信息 是 targets 表 里 多 个 源 的 均值 。 这 个 表 通 过 associatedsource RIE 
cat. 
H 所 有 这 个 源 在 targets 表 的 出 现 绑 定 在 一 起 ， 所 以 uniquecatalog 可 以 看 做 是 寻找 一 个 
特定 源 的 光 变 曲线 的 入 口 。 
associatedsource targets 表 和 uniquecatalog 表 匹 配 上 的 关联 都 存在 这 个 表 内 。 
tempuniquecatalog 临时 表 ，targets 表 与 uniquecatalog 表 交 叉 的 临时 结果 。 
translent 保存 检测 到 的 暂 现 源 。 


通过 观测 目标 星 表 与 模板 星 表 的 交 又 认证 ， 如 果 能 与 模板 星 表 匹配 的 则 进入 时 序 测 光 通道 进行 光 变 
曲线 的 处 理 并 进行 管理 。 如 果 从 模板 星 表 无 法 找到 匹配 星 ， 则 认为 是 瞬 变 源 (候选 体 )。 其 中 流量 相对 定 
标的 过 程 为 : 将 交叉 认证 匹配 上 的 两 两 星 对 之 间 ( 观 测 星 与 模板 星 匹 配 组 ) 计算 出 流量 比率 ， 并 取 这 一 组 
的 流量 比率 中 值 记 为 Rm， 然 后 修正 所 有 观测 星 的 星 等 计算 公式 为 normag = -2. Slog (flux: Rm), FLAP 
normag 为 相对 流量 定 标 后 的 观测 星 表 的 星 等 ; flue 为 观测 星 的 流量 。 相 对 流量 定 标 把 测 光 星 等 都 定 标 
到 模板 星 表 一 致 的 水 平 ， 这 样 光 变 曲线 是 一 个 有 意义 的 相对 光 变 量 。 所 有 瞬 变 源 都 存放 于 transient, 
所 有 光 变 曲线 存放 于 associatedsource。 

将 交叉 认证 的 匹配 情况 分 成 4 种 ， 即 多 对 多 、 一 对 多 、 一 对 一 、 无 匹配 。 多 对 多 : 剪除 “多 对 
多 ”关联 以 防止 数据 库 爆 炸 ， 简 化 成 一 对 多 关系 ， 继 续 处 理 。 一 对 多 : 分 配 新 的 unique id 给 
uniquecatalog 表 新 搬入 的 源 ， 替 代 旧 的 uniqueid。 新 的 一 对 多 关联 插入 associatedsource ， 设 定 为 type=2; 
插入 新 unique id 与 旧 targets id 关联 ， 这 是 为 给 被 取代 的 unique id 新 位 置 ， 标 记 tpye=6。 清 空 被 一 对 
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多 取代 的 原 有 分 枝 。 一 对 一 : 插入 tempuniquecatalog 中 的 一 对 一 关联 到 associatedsource 表 中 ， 标 记 为 
type=3。 无 匹配 : 插入 新 的 源 到 uniquecatalog ， 搬 和 人 这 些 新 的 关联 到 associatedsource ， 设 置 为 type=4。 
判断 暂 现 源 候选 插入 transient 表 。 至 此 所 有 提取 物 处 理 完 毕 。 

本 系统 通过 以 上 设计 完成 地 基 广 角 相 机 阵 的 数据 处 理 和 管理 功能 。 有 具体 的 代码 开展 与 系统 优化 及 
最 后 的 测试 ， 将 是 下 一 步 工作 的 主要 内 容 。 


4 讨论 与 总 结 


我 国 兴建 中 的 地 基 广 角 相 机 阵 面 临 着 大 数据 处 理 和 管理 的 挑战 : 每 台 相 机 每 153s 产生 1.5 x 10° 
条 记录 ， 总 相机 数 为 36 台 ， 并 且 要 求实 时 处 理 和 入 库 管理 。 为 应 对 挑战 ， 提 出 一 种 充分 利用 数据 库 
兼 具 大 数据 管理 和 处 理 于 一 身 的 特点 ， 基 于 MonetDB 的 大 数据 处 理 和 管理 的 系统 设计 方案 。 本 方案 
的 计 设 特点 是 通过 MonetDB 自身 具有 大 数据 处 理 的 特点 ,将 核心 数据 处 理 功能 内 舰 于 数据 库 内 ， 减 
少 因数 据 管理 和 处 理 分 属于 两 个 系统 所 带 来 的 输入 输出 时 间 损 耗 。 为 验证 MonetDB 数据 库 宽 视 场 海 
量 时 序数 据 的 处 理 与 管理 的 可 行 性 ， 开 展 多 方 的 测试 和 预先 研究 。 
Ta 预 研 阶段 主要 通过 了 以 下 测试 : (1) TPC-H 基准 测试 。 本 测试 主要 针对 数据 库 决 策 能 力 ， 测 试 结 
果 表 明 : MonetDB 具有 明显 的 表现 优势 ，PostgreSQL 次 之 ，MySQL 最 差 。(2) 开展 关键 算法 与 功能 测 
站 试 。 大 数据 加 载 能 力 测 试 表 明 ，MonetDB 相对 于 PostgreSQL 具有 明显 的 优势 。86400 个 星 表 相当 于 96h 
= 的 时 表 数 据 ， 平 均 每 个 人 库 时 间 为 1. 75 s。 载 人 时 间 随 着 载 人 数据 量 的 增长 缓慢 线性 增长 。 这 个 时 间 
基本 能 满足 项 目 要 求 ， 但 仍 存在 优化 的 空间 。 研 究 发 现 星 表 文件 的 大 小 与 载 人 速度 有 一 个 反常 的 关 
= 系 ， 可 以 能 过 MonetDB 的 内 置 函 数 进行 优化 。 同 时 ， 将 数据 存储 表 按 不 同 观 测 夜 进行 分 割 ， 从 而 提高 
a 载 入 速度。 交叉 认证 Zone 索引 算法 的 实现 与 测试 表明 ，MonetDB 相对 PosteresSQL 具有 更 快 的 处 理 速 
N 度 ， 每 17 万 条 记录 认证 需要 时 间 为 4 3 s。 通 过 调研 和 与 MonetDB 开发 人 员 讨 论 表 明 ， 通 过 调整 
MonetDB 的 内 置 参数 ， 能 进一步 优化 交叉 认证 的 时 间 。 并 预期 认证 每 17 万 条 的 记录 可 以 在 小 于 1 s 内 
完成 。 基 于 MonetDB 用 户 自 定义 函数 的 接口 ， 开 发 Columncopy 批文 件 导 入 函数 ， 表 明 MonetDB 可 以 
~ 为 以 后 的 系统 开发 提供 方便 灵活 的 接口 。 
Se 基于 调研 与 测试 结果 ， 提 出 本 方案 的 初步 设计 构架 。 本 方案 主要 完成 两 大 数据 处 理 功 能 : 瞬 变 源 
f 的 实时 搜索 和 海量 光 变 曲线 的 生成 与 管理 。 确 立 分 布 式 数据 库 的 架构 方式 ， 整 个 系统 由 36 个 并 列 的 
= 数据 库 单元 组 成 ， 每 个 数据 库 单元 对 应 一 个 独立 望远镜 且 功 能 相同 。 一 个 主 控 数据 库 单元 管理 各 个 数 
据 库 单元 。 对 单独 的 数据 库 单元 设计 了 表单 的 结构 及 相互 关系 。 同 时 描述 了 相对 流量 定 标的 实现 过 
程 。 该 设计 方案 从 理论 上 分 析 是 切实 可 行 的 ， 但 实际 开发 与 测试 必须 经 过 大 量 的 优化 及 调试 ， 这 将 是 
下 一 步 工 作 的 重点 内 容 。 
总 之 ， 通 过 研究 工作 ， 找 到 一 种 可 行 的 应 对 地 面 广角 相机 阵 大 数据 挑战 的 数据 处 理 与 管理 为 一 体 
的 系统 设计 方法 ， 将 为 MonetDB 在 中 国 天 文 界 的 大 数据 处 理 和 管理 的 应 用 打下 基础 。 
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Abstract: GWAC (Ground Wide Angle Camera) poses huge challenges in large-scale catalogue storage 
and real-time processing of quick search of transients among wide field-of-view time-series data. Firstly, this 
paper proposes a concept to employ databases’ functions such as fast data processing and parallelism, which 
will improve system performance and availability through the integration of data storage and computing 
platform. To understand the feasibility of Column-store MonetDB in vast catalogue management, we carry out a 
variety of pilot experiments on key technologies. We conduct TPC-H benchmark, data loading benchmark and 
optimization, and key algorithm testing of astronomical source association, all compared with the traditional 
row store database. Then, we use MonetDB to realize cross-match Zone algorithm. UDF function is developed 
for customizable data loading. Test results show that MonetDB database has a remarkable performance in big 
data management and it is efficient in real-time data processing; it has the ability to deal with 2. 5T catalog 
data. In the end we propose a wide field of view massive time serial observation data processing solution using 
the in-memory column store database MonetDB. The experimental results confirm the feasibility of this scheme. 
The design plan of MonetDB-based massive catalogue data processing solution is an efficient astronomical 
database solution that combines data processing and data management. 


Key words: Astronomical database; Architecture design; MonetDB; Real-time analysis; Source association 


